Consiste em um conjunto de métodos estatísticos usados para simplificar a interpretação de grandes conjuntos de dados. A aplicação pode ocorrer em diversas áreas do conhecimento.
Segundo Mingoti (2005, p. 21), “embora historicamente o uso de métodos multivariados esteja relacionado com trabalhos na Psicologia, Ciências Sociais e Biológicas, mais recentemente eles têm sido aplicados em um grande universo de área diferentes, como: Educação, Geologia, Química, Física, Engenharia, Ergonomia, etc.”.
Basicamente os objetivos são:
Redução ou simplificação da base de dados sem sacrificar informação importante;
Ordenação e agrupamento (classificação) - criar grupos de objetos (ou variáveis) semelhantes com base em várias características. Por isso é multivariada;
Investigação da estrutura de dependência entre as variáveis. Podemos ter um conjunto de dados relacionados com tecnologias utilizadas nas fazendas e outro conjunto de dados relacionados com característica do dono da propriedade. A dependência entre estes grupos de variáveis pode indicar porque algumas propriedades usam mais tecnologias do que outras;
Predição - realizar previsões;
Construção de hipóteses e testes.
As técnicas de Análise multivariada são muito utilizadas para a construção de índices. Um índice sintetiza em uma única variável a informação de todas as variáveis que foram medidas sobre o fenômeno. Como exemplo, pode-se citar Índice de Desemprego, Índice de Qualidade de Vida, Índice de Qualidade Ambiental, Índice de Desenvolvimento Humano (IDH), entre outros. Nestes casos, a Análise de Componentes Principais ou Análise Fatorial são técnicas que podem ser utilizadas (LIMA, 2015).
Outra aplicação interessante é quando se procura dividir um conjunto de objetos em grupos que sejam os mais homogêneos possíveis dentro do grupo e heterogêneos entre si. Uma empresa pode buscar estratificar seus clientes, dividindo-os em grupos e traçando objetivos para cada grupo separadamente. Pode-se separar os municípios de determinado estado em grupos homogêneos com o intuito de delinear programas adequados para os diferentes grupos. Nestes casos, a Análise de Cluster é a técnica adequada (LIMA, 2015).
Outra situação é a enfrentada pelas seguradoras para realização de seguros de veículos. Cada cliente se encaixa em determinado perfil que pode ter maior ou menor risco de sinistro. Neste caso, pode-se aplicar Análise Discriminante buscando identificar a qual grupo de risco de sinistro um determinado elemento tem mais chance de pertencer (LIMA, 2015).
Os dados para Análise multivariada em uma amostra de seção cruzada são geralmente compostos de variáveis (renda, idade, anos de escolaridade, etc.) e observações (pessoa, família, escola, município, estado, país, etc.). Dispostos em uma tabela os dados formam uma matriz em que cada coluna se refere a uma variável e cada linha a uma observação. As observações são as unidades de Análise ou unidades amostrais e as variáveis são as características medidas nas observações. Assim, os dados usados são tipicamente formados por n observações em p variáveis.
#Verificando o diretorio que o R esta direcionadogetwd()
[1] "/Users/jricardofl/Dropbox/Facape/2024/Introduçao a Ciencia de Dados/aula4"
#Direcionado o R para o Diretorio a ser trabalhadosetwd('/Users/jricardofl/Dropbox/tempecon/dados_censoagro')#Pacotelibrary(readxl)#Entrada dos dadosdados <-read_excel("artigo.xlsx")# Nomes das variáveis utilizadas##x1 Porcentagem dos estabelecimentos que usam força animal#x2 Porcentagem dos estabelecimentos que usam força mecânica#x3 Porcentagem da área com pastagens que é plantada#x5 area trabalhada como porcentagem da área aproveitável#x6 Area com lavouras permanentes e temporárias como proporção da área aproveitável#x7 Numero de tratores por equivalente homem#x8 Numero de tratores por área explorada#x9 Numero de arados por área explorada#x10 Numero de colheitadeiras por área explorada#x11 Valor total dos combustíveis consumidos por área explorada#x12 Quantidade de energia eletrica consumida por área explorada#x13 Quantidade de energia eletrica consumida po equivalente homem#x14 Valor total dos bens por área explorada#x15 Valor total dos bens por equivalente homem#x16 valor total dos investimentos por area explorada#x17 Valor total dos investimentos por equivalente homem#x18 Valor total dos financiamentos em 2006 por área explorada#x19 Valor total dos financiamentos em 2006 por equivalente homem.#x20 Valor total da produção em 2006, por área explorada#x21 Valor total da produção em 2006, por equivalente-homem#x22 Valor total das despesas em 2006, por área explorada#x23 Valor total das despesas em 2006, por equivalente homem#x24 Despesas com adubos, corretivos, sementes e mudas, agrotóxicos, medicamenteos para animais, sal e rações por área explorada#x25 Despesas com adubos, corretivos, sementes e mudas, agrotóxicos, medicamenteos para animais, sal e rações por equivalente homem#x26 Assistência Técnica#x27 uso de agrotóxico para controle de pragas e doenças#x28 uso de controle alternativo de pragas e doenças#x29 irrigação#Visualizaçao dos dadosround(head(dados, 15),1)
summary(dados)
x1 x2 x3 x5
Min. : 0.000 Min. : 0.3141 Min. : 0.00 Min. : 4.145
1st Qu.: 9.273 1st Qu.: 3.1585 1st Qu.:12.45 1st Qu.:31.239
Median :21.774 Median : 6.1091 Median :27.93 Median :48.746
Mean :28.304 Mean :10.7766 Mean :31.25 Mean :51.011
3rd Qu.:43.841 3rd Qu.:13.9814 3rd Qu.:45.17 3rd Qu.:71.117
Max. :88.970 Max. :65.4206 Max. :99.39 Max. :99.126
x6 x7 x8 x9
Min. : 1.854 Min. :0.00000 Min. :0.0000000 Min. :0.000000
1st Qu.:15.328 1st Qu.:0.01494 1st Qu.:0.0005492 1st Qu.:0.001005
Median :27.945 Median :0.02586 Median :0.0011719 Median :0.003356
Mean :36.695 Mean :0.04053 Mean :0.0019096 Mean :0.010467
3rd Qu.:56.710 3rd Qu.:0.05072 3rd Qu.:0.0026078 3rd Qu.:0.012678
Max. :98.477 Max. :0.52381 Max. :0.0235613 Max. :0.111792
x10 x11 x12 x13
Min. :0.000e+00 Min. :0.00000 Min. :0.001409 Min. : 0.03629
1st Qu.:0.000e+00 1st Qu.:0.01189 1st Qu.:0.014036 1st Qu.: 0.32684
Median :0.000e+00 Median :0.02268 Median :0.024761 Median : 0.60987
Mean :9.952e-05 Mean :0.03464 Mean :0.055689 Mean : 0.99300
3rd Qu.:0.000e+00 3rd Qu.:0.04019 3rd Qu.:0.047151 3rd Qu.: 1.18653
Max. :3.570e-03 Max. :0.33107 Max. :2.292243 Max. :14.45350
x14 x15 x16 x17
Min. : 0.4787 Min. : 4.73 Min. :0.00000 Min. : 0.0000
1st Qu.: 1.9221 1st Qu.: 45.17 1st Qu.:0.03837 1st Qu.: 0.7292
Median : 3.3407 Median : 83.51 Median :0.06399 Median : 1.4646
Mean : 4.8614 Mean :104.56 Mean :0.08980 Mean : 2.8145
3rd Qu.: 5.6912 3rd Qu.:133.06 3rd Qu.:0.09981 3rd Qu.: 2.6578
Max. :56.3753 Max. :550.05 Max. :0.78753 Max. :163.4401
x18 x19 x20 x21
Min. :0.00000 Min. : 0.0000 Min. : 0.05285 Min. : 2.074
1st Qu.:0.02011 1st Qu.: 0.5007 1st Qu.: 0.42035 1st Qu.: 11.252
Median :0.03563 Median : 0.8523 Median : 1.01866 Median : 22.177
Mean :0.06214 Mean : 4.1450 Mean : 1.97985 Mean : 36.598
3rd Qu.:0.06160 3rd Qu.: 1.2654 3rd Qu.: 2.23304 3rd Qu.: 34.872
Max. :2.62630 Max. :545.0519 Max. :53.67879 Max. :506.140
x22 x23 x24 x25
Min. : 0.02411 Min. : 0.8373 Min. : 0.004046 Min. : 0.1063
1st Qu.: 0.18269 1st Qu.: 4.4894 1st Qu.: 0.036479 1st Qu.: 1.0406
Median : 0.34980 Median : 7.7355 Median : 0.096662 Median : 2.1045
Mean : 0.75201 Mean : 17.9948 Mean : 0.353451 Mean : 6.9821
3rd Qu.: 0.66069 3rd Qu.: 13.8213 3rd Qu.: 0.182730 3rd Qu.: 3.3604
Max. :24.01334 Max. :1087.0980 Max. :20.588395 Max. :326.5452
x26 x27 x28 x29
Min. : 0.2359 Min. : 0.000 Min. : 0.000 Min. : 0.0000
1st Qu.: 3.1542 1st Qu.: 8.425 1st Qu.: 1.068 1st Qu.: 0.3109
Median : 6.0857 Median :16.163 Median : 2.374 Median : 1.2659
Mean :10.5093 Mean :23.940 Mean : 4.700 Mean : 4.6938
3rd Qu.:12.1288 3rd Qu.:36.414 3rd Qu.: 5.116 3rd Qu.: 5.8438
Max. :59.4433 Max. :75.873 Max. :43.162 Max. :58.0766
Técnicas da Análise Multivariada
Pode-se considerar que a estatística multivariada se divide em dois grupos: o primeiro consiste nas técnicas de simplificação da estrutura de variabilidade dos dados. Principalmente, fazem parte deste grupo a Análise de Componentes Principais, Análise Fatorial, Correlações Canônicas, Cluster e Discriminante.
O segundo grupo concentra os métodos de estimação de parâmetros, como na análise de Regressão Simples e Múltipla.
Para um estudo aprofundado das técnicas de Análise Multivariada, é importante revisar conceitos de Estatística Básica: média, variância, desvio padrão, covariância, correlação seriam as mais relevantes.
E também é importante revisar conceitos de álgebra matricial: vetores, matrizes, combinações lineares, dependência linear, raízes e vetores característicos e decomposição espectral, basicamente.
Análise de Componentes Principais
A Análise de Componentes Principais (ACP) é uma técnica de Análise Multivariada que consiste em transformar um conjunto original de variáveis em outro conjunto, os Componentes Principais (CP) com propriedades específicas. Os CP’s são combinações lineares das variáveis originais e são estimados de forma a captar o máximo da variação total dos dados. O processo de estimação é tal que o primeiro CP capta o máximo de variância possível, o segundo capta o máximo possível do restante de variância, o terceiro o máximo possível do restante de variância, e assim sucessivamente.
A ACP é apropriada quando as variáveis sob investigação são todas de mesma natureza, de modo que não tenhamos, por exemplo, uma ou mais variáveis dependentes e um conjunto de covariáveis, como no caso de análise de regressão.
Segundo Mingoti (2005, p. 59), “seu objetivo principal é o de explicar a estrutura de variância-covariância de um vetor aleatório, composto de p-variáveis aleatórias, através da construção de combinações lineares das variáveis originais. Estas combinações lineares são chamadas de componentes principais e são não correlacionadas entre si”.
Uma combinação linear de vetores ou de variáveis é um novo vetor (ou nova variável) defindo por
\[
y=a_1x_1+a_2x_2+a_3x_3+ \dots + a_px_p
\]“Se temos p-variáveis originais é possível obter-se p componentes principais. No entanto, em geral deseja-se obter ‘redução do número de variáveis a serem avaliadas e interpretação das combinações lineares construídas’, ou seja, a informação contida nas p-variáveis originais é substituída pela informação contida em k (k\(<\)p) componentes principais não correlacionados” (MINGOTI, 2005, p. 59).
A ideia é que se algumas das variáveis originais são correlacionadas, elas estão, efetivamente, “dizendo a mesma coisa”. Nesse caso, um conjunto menor de variáveis, não-correlacionadas, pode ser tão eficaz quanto o conjunto de variáveis originais para explicar a estrutura de variância-covariância dos dados.
Matricialmente, pode ser escrita como \(y=a'x\) onde os a’s são as constantes que definem a combinação linear e são determinadas de forma a atender às características da combinação linear que se deseja. Como as variáveis são dadas, os coeficientes a’s são determinados de forma a atender às restrições estabelecidas, ou seja, o princípio da técnica. As combinações lineares tem média e variância definidas, respectivamente, por \(E(Y)=a'\mu\) e \(V(Y)=a'\sum a\).
Mais de uma combinação linear pode ser definida de um conjunto de variáveis. Em geral, com p variáveis pode-se formar p combinaçoes lineares diferentes.
A ACP transforma um conjunto de variáveis correlacionadas em um conjunto de variáveis não-correlacionadas. Assim, se as variáveis originais são aproximadamente não correlacionadas, não faz sentido ser feita uma ACP.
Variáveis quantitativas usadas em análise multivariada são, geralmente, expressas em unidades diferentes. Diferenças de escalas afetam a contribuição da variável para a variância generalizada. Para usar essas variáveis em uma técnica multivariada elas precisam ser transformadas para uma escala comum. Entre os métodos usados alguns eliminam diferenças em tamanho (escala) outras reduzem tamanho e variabilidade para uma escala comum.
O método mais usado para tornar variáveis comparáveis é a Padronização, que consiste em subtrair a média e dividir pelo desvio padrão. Além de simplificar cálculos e manipulações matemáticas, a padronização de variáveis é importante para resolver o problema de unidades de medidas diferentes das variáveis e do desbalanceamento entre as variâncias. Toda variável padronizada tem média zero, variância igual a um e é adimensional.
Uma questão importante é que a covariância entre variáveis padronizadas é igual a correlação entre variáveis originais. Assim, usar a matriz de correlações das variáveis ao invés da matriz var-cov é o mesmo que trabalhar com variáveis padronizadas.
Existe uma tendência para que a variável com maior volatilidade cause uma desestabilização na Análise de Componentes Principais e também na Análise Fatorial. A solução é padronizar as variáveis de forma que tenham média zero e variância unitária.
A Análise passa a ser determinar as raízes características e os vetores característicos da matriz de correlações.
Sobre raízes e vetores característicos, uma matriz quadrada A tem raízes características \(\lambda_i\) e vetores característicos \(X_i\) dados pela seguinte relação \(AX=\lambda X\). Uma matriz \(p_xp\) tem p raízes e p vetores característicos e a relação pode ser escrita como \(AX_i=\lambda_i X_i\) o que, intituitivamente, significa que existem constantes \(\lambda_i\) e vetores \(X_i\), tais que a multiplicação da matriz pelo vetor é igual à multiplicação do vetor por uma constante.
As raízes e vetores característicos são encontrados a partir de
\[
AX=\lambda X
\]
\[
AX - \lambda X= 0
\]\[
(A- \lambda I)X= 0
\]
sendo que a equação é verdadeira para qualquer \(\lambda\) se \(X=0\), mas esta solução não interessa. Para se ter uma solução \(X \neq 0\), a inversa da equação característica \((A- \lambda I)\) não deve existir e, para isto, o seu determinante precisa ser igual a zero. Assim, pode-se entender \(\lambda\) (raízes características) como os valores que zeram o determinante da equação característica.
Os vetores característicos não são únicos, devendo ser normalizados. Para cada raiz característica existe um vetor característico que é encontrado resolvendo a expressão \((A-\lambda_i I)X_i=0\).
As raízes características possuem um conjunto de propriedades:
\(tr(A) = \sum_{i=1}^{p} \lambda_i\);
\(det(A) = \Pi_{i=1}^{p}\). Se alguma raiz característica for zero, o determinante de A é zero e a matriz não possui inversa;
Para uma matriz diagonal, as raízes são os elementos da diagonal principal;
Para uma matriz triangular, as raízes são os elementos da diagonal principal;
Raízes de A são iguais as de \(A'\);
As raízes de \(A^{-1}\) são iguais a \(1/ \lambda_i\), mas os vetores característicos são os mesmos;
Se A é ortogonal, \(\lambda_i=1\) ou \(-1\);
Se A é uma matriz idempotente, \(\lambda_i=1\) ou \(0\);
Raízes características de matrizes simétrica são números reais;
Os vetores característicos de matrizes simétricas são ortogonais, ou seja, não correlacionados.
Obtenção dos Componentes Principais
Considere um vetor de p variáveis padronizadas dada por
\[
\mathbf{Z'}=\left[\begin{array}{llll}
Z_1 &Z_2 &\dots &Z_p
\end{array}\right]
\] os CP’s são combinações lineares dos \(Z's\)
sendo que é possível ter até p CP’s, com o primeiro tendo a maior variância, o segundo CP tendo a segunda maior variância e sendo ortogonal ao primeiro, etc. Neste caso, a variância de \(Z_i\) é dada por \(V(Z_i)=a_i'\sum a_i\) e o que deve ser feito é encontrar os coeficientes de \(a_i\) das combinaçoes lineares de forma a satisfazer as condições acima definidas.
É possível demonstrar (LIMA, 2015) que a solução se resume em encontrar as raízes características \((\lambda_i)\) e os vetores característicos \((a_i)\) da matriz var-cov \((\sum)\) das variáveis. Os coeficientes dos CP’s são os elementos dos vetores característicos \((a_i)\).
Além disso, é possível demonstrar que \(\sum a_i= \lambda a_i\) e, consequentemente,
e que a \(V(Z_i) = \lambda _i\) pois pela ortogonalidade \(a_i'a_i =1\) (\(a_i'a_i=\sum_{p=1}^ja_{jp}^2\)), o que significa que a variância do componente i é igual a sua raiz característica.
Finalmente, dado que \(a_i'a_k =0\), a covariância entre os CP’s é igual a zero, ou seja, não são correlacionados, são ortogonais.
Como dito anteriormente, com p variáveis é possível ter até p CP’s. Assim, a variância total dos p componentes tem que ser igual a variância total das variáveis Z.
A importância relativa de cada componente é dada pelo percentual de sua variância em relação à variância total, ou seja, é a variância explicada ou captada por ele. Assim, a importância relativa de \(Z_k\) é dada por \(( \lambda_k / \sum_{i}^{p} \lambda_i)100\). Se um, dois ou três componentes captam grande parcela da variância dos dados, pode-se concentrar a análise neste número menor de variáveis.
Como a idéia da ACP é redução da massa de dados para uma dimensão mais adequada para análise, se faz necessário decidir quantos CP’s usar. Com p variáveis deve-se manter k componentes, sendo \(k<q\). A determinação de k não é uma decisão estatística porque não se tem um modelo adequado para tal e por isso é feita de forma prática. Utiliza-se os seguintes critérios:
Dada a importância relativa de cada componente, manter o número de componentes que captam “certa” percentagem da variância dos dados, com \(70\%\) sendo um valor de referência;
Desconsiderar os componentes com variância inferior à variância média das variáveis originais.
Interpretação dos Coeficientes do Componente Principal
Os coeficientes dos componentes indicam a importância da variável para o componente. Isto possibilita atribuir um significado ao componente. Além do coeficiente pode-se calcular a correlação entre o componente e a variável. A correlação entre \(Y_j\) e a variável padronizada \(Z_i\) é igual a:
\[
r_{Y_i,Z_k}=\frac{a_{ik}}{\sqrt{\sigma_k^2}}\sqrt{\lambda_i}
\] e, então, as variáveis \(\mathbf{Z}\) com os maiores coeficientes na componente principal \(\mathbf{Y_j}\) são as mais correlacionadas com a componente. A matriz de correlações entre as variáveis e os componentes é bastante importante para entender os componentes e lhes atribuir um nome. É possível também testar a significância estatística de cada peso ou coeficiente do componente. A hipótese nula é de que o coeficiente é estatisticamente igual a zero.
Análise de Componentes Principais - Escores
Escore é o valor de \(\mathbf{Y_i}\) para cada observação. Estes servem para, por exemplo:
comparar ou ordenar as observações;
Análise de cluster ou regressão.
Demonstração de ACP no R
#Direcionado o R para o Diretorio a ser trabalhado#setwd('/Users/jricardofl/Dropbox/tempecon/multivariada')#Lendo os dados no Rlibrary(car)library(tidyverse)library(corrplot)library(graphics)library(ade4)library(grid)library(MVar.pt)library(factoextra)data(mtcars)#Format#A data frame with 32 observations on 11 (numeric) variables.#[, 1] mpg Milhas/(EUA) galão#[, 2] cil Número de cilindros#[, 3] disp Cilindradas cc#[, 4] HP Potência bruta#[, 5] drat Relação do eixo traseiro#[, 6] Peso em peso (1000 lbs)#[, 7] qsex tempo 1/4 de milha#[, 8] vs Motor (0 = em forma de V, 1 = reto)#[, 9] am Transmissão (0 = automática, 1 = manual)#[,10] gear Número de marchas para frente#[,11] carb Número de carburadores# Criando um objetodados <- mtcarssummary(dados) # estatística descritiva dos dados
mpg cyl disp hp
Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
Median :19.20 Median :6.000 Median :196.3 Median :123.0
Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
drat wt qsec vs
Min. :2.760 Min. :1.513 Min. :14.50 Min. :0.0000
1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:0.0000
Median :3.695 Median :3.325 Median :17.71 Median :0.0000
Mean :3.597 Mean :3.217 Mean :17.85 Mean :0.4375
3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:1.0000
Max. :4.930 Max. :5.424 Max. :22.90 Max. :1.0000
am gear carb
Min. :0.0000 Min. :3.000 Min. :1.000
1st Qu.:0.0000 1st Qu.:3.000 1st Qu.:2.000
Median :0.0000 Median :4.000 Median :2.000
Mean :0.4062 Mean :3.688 Mean :2.812
3rd Qu.:1.0000 3rd Qu.:4.000 3rd Qu.:4.000
Max. :1.0000 Max. :5.000 Max. :8.000
# Retirando as variáveis bináriasdados <- mtcars |> dplyr::select(-vs, -am)# Verificação da estrutura dos dadosglimpse(dados)
# ESTIMACAO DAS ESTATISTICAS DESCRITIVAS E CALCULO DA MATRIZ DE CORRELAÇOESsummary(dados) #sem as variáveis binárias
mpg cyl disp hp
Min. :10.40 Min. :4.000 Min. : 71.1 Min. : 52.0
1st Qu.:15.43 1st Qu.:4.000 1st Qu.:120.8 1st Qu.: 96.5
Median :19.20 Median :6.000 Median :196.3 Median :123.0
Mean :20.09 Mean :6.188 Mean :230.7 Mean :146.7
3rd Qu.:22.80 3rd Qu.:8.000 3rd Qu.:326.0 3rd Qu.:180.0
Max. :33.90 Max. :8.000 Max. :472.0 Max. :335.0
drat wt qsec gear
Min. :2.760 Min. :1.513 Min. :14.50 Min. :3.000
1st Qu.:3.080 1st Qu.:2.581 1st Qu.:16.89 1st Qu.:3.000
Median :3.695 Median :3.325 Median :17.71 Median :4.000
Mean :3.597 Mean :3.217 Mean :17.85 Mean :3.688
3rd Qu.:3.920 3rd Qu.:3.610 3rd Qu.:18.90 3rd Qu.:4.000
Max. :4.930 Max. :5.424 Max. :22.90 Max. :5.000
carb
Min. :1.000
1st Qu.:2.000
Median :2.000
Mean :2.812
3rd Qu.:4.000
Max. :8.000
desvpad <-sapply(dados, sd) #para calcular o desvio-padraoround(desvpad,2)
#Análise de componentes principais - dados devem ser padronizados#Padronizacao dos dadosdados.pad <-as.data.frame(scale(dados))#Analise de Componentes principais com prcompresultados.pca <-prcomp(dados.pad, scale =TRUE) #ACP#Raizes Caracteristicas - 1 Forma(resultados.pca$sdev)^2
# Gráfico do percentual de variância explicadascreeplot(resultados.pca, type="lines")
fviz_eig(resultados.pca)
Se observa que 62,84% da variabilidade total dos dados são explicados pela primeira componente principal. Além disso, a segunda componente principal explica 23,13% da variação total. As duas primeiras componentes principais explicam juntas 85,98% da variabilidade total dos dados.
#Resultados das combinações linearesresultados.pca